了解下大数据是什么,大数据有什么用,大数据设计到哪些技术。
大数据定义
大数据,指的是所涉及的数据资料量规模巨大到无法通过人脑甚至主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
from 百度:大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
from 大数据时代:维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》
个人理解:大数据就是在计算机环境下产生大量复杂的可用于被挖掘的有价值的数据的集合。
大数据特点
5V:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值密度低)、Veracity(真实性)
P:单位关系转换 DB>NB>BB>YB>ZB>EB>PB>TB>GB>MB>MB>KB
大数据相干技术
大数据主要为有效地处理大量的数据。相关技术有大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统、机器学习、深度学习等。
- HadoopMapReduce:
Hadoop已经是目前大数据平台中应用率最高的技术,特别是针对诸如文本、社交媒体订阅以及视频等非结构化数据。除分布式文件系统之外,伴随Hadoop一同出现的还有进行大数据集处理MapReduce架构。 - NoSQL数据库:
oSQL数据库关注关系型数据库引擎的限制,如索引、流媒体和高访问量的网站服务。在这些领域,相较关系型数据库引擎,NoSQL的效率明显更高。 - 内存分析:
内存分析在个人消费电子设备以及其他嵌入式设备中的应用将会得到快速的发展。随着越来越多的价格低廉的内存用到数据中心中,如何利用这一优势对软件进行最大限度的优化成为关键的问题。内存分析以其实时、高性能的特性,成为大数据分析时代下的“新宠儿”。如何让大数据转化为最佳的洞察力,也许内存分析就是答案。 - 集成设备:
随着数据仓库设备(Data Warehouse Appliance)的出现,商业智能以及大数据分析的潜能也被激发出来,许多企业将利用数据仓库新技术的优势提升自身竞争力。集成设备将企业的数据仓库硬件软件整合在一起,提升查询性能、扩充存储空间并获得更多的分析功能,并能够提供同传统数据仓库系统一样的优势。
大数据与云计算的关系
大数据通常形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库时同上使用大量时间,大数据分析常常和云计算联系在一起,因为事实的大型数据集分析需要向MapReduce框架进行分发出库。
小结
大数据的意义和前景。总的来说,大数据是对大量、动态、能持续的数据,通过运用新系统、新工具、新模型的挖掘,从而获得具有洞察力和新价值的东西。
附录
- 大数据处理工具:
- Hadoop HDFS、HadoopMapReduce, Hbase、Hive 渐次诞生,早期Hadoop生态圈逐步形成。
- NoSQL,membase、MongoDB
- 大数据处理流程
- 数据采集:使用多种轻型数据库接受来自客户端的数据,并且用户可以根据这些数据库进行简单的查询和处理工作。
特点:高并发
使用产品:NoSQL,membase、MongoDB - 统计分析:将海量数据导入一个集中的大型分布式数据库或者分布式存储集群,利用分布式技术对存储与内部的数据进行查询分类汇总;
特点:导入数据量大,设计查询数量大,查询请求多;
使用产品及工具:infoBright,Hadoop(Pig和Hive),YunTable,SAP Hana和OrecleExadata,Hadoop主要做离线分析为主。 - 挖掘数据:基于查询数据进行挖局,满足高级别的数据分析;
特点和挑战:算法复杂,计算设计的数据量和计算量都较大;
- 数据采集:使用多种轻型数据库接受来自客户端的数据,并且用户可以根据这些数据库进行简单的查询和处理工作。